Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
我们提出了一种从图像中推断人类对象相互作用的不同3D模型的方法。考虑到人类如何与单个2D图像中复杂场景中的对象相互作用的推理是一项具有挑战性的任务,鉴于由于通过投影而导致信息丢失引起的歧义。此外,建模3D相互作用需要对各种对象类别和交互类型的概括能力。我们提出了一种对相互作用的动作条件建模,使我们能够在接触区域或3D场景几何形状上推断人类和物体的不同3D布置。我们的方法从大语言模型(例如GPT-3)中提取高级常识性知识,并将其应用于对人类对象相互作用的3D推理。我们的关键见解是从大语言模型中提取的先验可以帮助从纹理提示中推理人类对象联系人。我们定量评估大型人类对象交互数据集上推断的3D模型,并显示我们的方法如何导致更好的3D重建。我们进一步评估方法对真实图像的有效性,并证明其对互动类型和对象类别的普遍性。
translated by 谷歌翻译
随着Gen III核反应堆的质量构建,使用深度学习(DL)技术是一种流行的趋势,以快速有效地诊断可能发生的事故。为了克服使用深度学习理论诊断反应堆事故的先前工作的常见问题,本文提出了一个诊断过程,以确保对嘈杂和残废的数据的鲁棒性稳健性并且可以解释。首先,提出了一种新颖的剥离垫垫自动编码器(DPAE)来提取监视数据,其表示提取器仍在具有高达25.0的信噪比的干扰数据上有效,并监视丢失的数据丢失的数据高达40.0%。其次,提出了使用DPAE编码器提取表示形式的诊断框架,然后提出了浅统计学习算法,并在41.8%和80.8%的分类和回归任务评估指标上测试了这种逐步诊断方法,并在受干扰的数据集上进行了测试 - 到端诊断方法。最后,提出了使用SHAP和特征消融的分层解释算法,以分析输入监视参数的重要性并验证高重要性参数的有效性。这项研究的结果提供了一种参考方法,用于在具有高安全性要求的情况下在场景中构建强大而可解释的智能反应堆异常诊断系统。
translated by 谷歌翻译
本文涉及两人零和马尔可夫游戏 - 可以说是多代理增强学习中最基本的设置 - 目的是学习纳什平衡(NE)的样本 - 优越。所有先前的结果至少都有两个障碍中的至少一个:多种试剂的诅咒和长层的障碍,无论使用采样方案如何。假设访问灵活的采样机制:生成模型,我们朝着解决此问题迈出了一步。专注于非平稳的有限 - 霍森马尔可夫游戏,我们开发了一种学习算法$ \ mathsf {nash} \ text { - } \ mathsf {q} \ text { - } \ text { - } \ mathsf {ftrl} $ and deflavery and Adaptive采样方案对抗性学习中的乐观原则(尤其是跟随规范化领导者(FTRL)方法),具有精致的奖励术语设计,可确保在FTRL动力学下进行某些可分解性。我们的算法使用$$ \ widetilde {o} \ bigg(\ frac {h^4 s(a+b)} {\ varepsilon^2} \ bigg)$ bigg)$ samples $ \ varepsilon $ -Approximate Markov ne策略其中$ s $是状态的数量,$ h $是地平线,而$ a $ a $ a $ a $ a $(resp。〜 $ b $)表示max-player的动作数(分别〜min-player)。从最小的意义上讲,这几乎无法得到解决。在此过程中,我们得出了一个精致的遗憾,以赋予FTRL的遗憾,从而明确说明了差异数量的作用,这可能具有独立的利益。
translated by 谷歌翻译
近似消息传递(AMP)是解决高维统计问题的有效迭代范式。但是,当迭代次数超过$ o \ big(\ frac {\ log n} {\ log log \ log \ log n} \时big)$(带有$ n $问题维度)。为了解决这一不足,本文开发了一个非吸附框架,用于理解峰值矩阵估计中的AMP。基于AMP更新的新分解和可控的残差项,我们布置了一个分析配方,以表征在存在独立初始化的情况下AMP的有限样本行为,该过程被进一步概括以进行光谱初始化。作为提出的分析配方的两个具体后果:(i)求解$ \ mathbb {z} _2 $同步时,我们预测了频谱初始化AMP的行为,最高为$ o \ big(\ frac {n} {\ mathrm {\ mathrm { poly} \ log n} \ big)$迭代,表明该算法成功而无需随后的细化阶段(如最近由\ citet {celentano2021local}推测); (ii)我们表征了稀疏PCA中AMP的非反应性行为(在尖刺的Wigner模型中),以广泛的信噪比。
translated by 谷歌翻译
由于卷积神经网络在从大规模数据中学习可概括的图像先验方面表现良好,因此这些模型已被广泛用于图像DeNoise任务。但是,在复杂模型上,计算复杂性也急剧增加。在本文中,我们提出了一个新颖的轻巧互补注意模块,其中包括密度模块和稀疏模块,该模块可以合作地挖掘浓密和稀疏功能,以供特征互补学习,以构建有效的轻质体系结构。此外,为了减少因denoing而导致的细节丢失,本文构建了基于梯度的结构保护分支。我们利用基于梯度的分支来获取其他结构先验来进行降级,并使模型通过优化梯度损失优化,使模型更加关注图像几何细节。基于上述,我们提出了一个具有双分支的有效的UNET结构化网络,视觉结果显示这可以有效地保留原始图像的结构细节,我们评估了包括Sidd和DND在内的基准,其中Scanet在PSNR和SSIM中实现了最先进的性能,同时大大降低了计算成本。
translated by 谷歌翻译
盲人恢复通常会遇到各种规模的面孔输入,尤其是在现实世界中。但是,当前的大多数作品都支持特定的规模面,这限制了其在现实情况下的应用能力。在这项工作中,我们提出了一个新颖的尺度感知盲人面部修复框架,名为FaceFormer,该框架将面部特征恢复作为比例感知转换。所提出的面部特征上采样(FFUP)模块基于原始的比例比例动态生成UPSMPLING滤波器,这有助于我们的网络适应任意面部尺度。此外,我们进一步提出了面部特征嵌入(FFE)模块,该模块利用变压器来层次提取面部潜在的多样性和鲁棒性。因此,我们的脸部形式实现了富裕性和稳健性,恢复了面部的面孔,对面部成分具有现实和对称的细节。广泛的实验表明,我们提出的使用合成数据集训练的方法比当前的最新图像更好地推广到天然低质量的图像。
translated by 谷歌翻译
本文研究了动画视频的现实世界视频超分辨率(VSR)的问题,并揭示了实用动画VSR的三个关键改进。首先,最近的现实世界超分辨率方法通常依赖于使用基本运算符的降解模拟,而没有任何学习能力,例如模糊,噪声和压缩。在这项工作中,我们建议从真正的低质量动画视频中学习此类基本操作员,并将学习的操作员纳入降级生成管道中。这样的基于神经网络的基本操作员可以帮助更好地捕获实际降解的分布。其次,大规模的高质量动画视频数据集AVC构建,以促进动画VSR的全面培训和评估。第三,我们进一步研究了有效的多尺度网络结构。它利用单向复发网络的效率以及基于滑动窗口的方法的有效性。多亏了上述精致的设计,我们的方法Animesr能够有效,有效地恢复现实世界中的低质量动画视频,从而实现优于以前的最先进方法。
translated by 谷歌翻译
本文通过离线数据在两人零和马尔可夫游戏中学习NASH Equilibria的进展。具体而言,考虑使用$ S $州的$ \ gamma $ discousped Infinite-Horizo​​n Markov游戏,其中Max-player具有$ $ ACTIVE,而Min-player具有$ B $ Actions。我们提出了一种基于悲观模型的算法,具有伯恩斯坦风格的较低置信界(称为VI-LCB游戏),事实证明,该算法可以找到$ \ varepsilon $ - approximate-approximate nash平衡,带有样品复杂性,不大于$ \ frac {c_ {c_ {c_ {c_ { \ Mathsf {剪切}}}^{\ star} s(a+b)} {(1- \ gamma)^{3} \ varepsilon^{2}} $(最多到某个log factor)。在这里,$ c _ {\ mathsf {剪切}}}^{\ star} $是一些单方面剪接的浓缩系数,反映了可用数据的覆盖范围和分配变化(vis- \`a-vis目标数据),而目标是目标精度$ \ varepsilon $可以是$ \ big(0,\ frac {1} {1- \ gamma} \ big] $的任何值。我们的样本复杂性绑定了先前的艺术,以$ \ min \ {a, b \} $,实现整个$ \ varepsilon $ range的最小值最佳性。我们结果的一个吸引力的功能在于算法简单性,这揭示了降低方差降低和样本拆分的不必要性。
translated by 谷歌翻译